STATA描述性统计

2023-08-04 17:05| 来源: 网络整理| 查看: 265

（1）数据概要

describe ///描述命令输出结果包含每个变量的名称、存储方式、显示格式、变量标签和变量值标签

codebook [var] ///详细观察wage变量的相关情况

summarize [varlist] [if] [in] [weight] [,options]

[,options]：

detail 产生更加详细的统计变量,包括偏度、峰度、最小、最大

meanonly 仅计算和显示平均数，该选项在编程中比较有用

format 显示格式

separator(#) 每隔#个变量画一条分界线，默认为5

use wage.dta, clear describe //描述命令输出结果包含每个变量的名称、存储方式、显示格式、变量标签和变量值标签 codebook wage //详细观察wage变量的相关情况 sum wage educ exper tenure nonwhite , separator(3) //每个三个变量画一条分界线 sum wage lwage, detail //显示wage和log(wage)的细节情况 sum wage if female==1 //查看女性的wage bysort female: sum wage //对男女工资进行对比分析 sort wage sum wage in 1/200 //查看工资在前200位的统计特征

（2）输出结果

findit outreg2 然后在打开的窗口寻找outreg2，单击选择click here to instell

//安装到用户的软件

keep wage exper educ

或ssc install outreg2,repalce

outreg2 using myfile2.doc, word sum(detail) replace see ///输出所有统计指标到word

outreg2 using myfile1.doc, word sum(log) replace eqdrop(N mean) see //去掉观测值数目和平均数，保存到myfile1.doc文件中 outreg2 using myfile2.doc, word sum(detail) replace eqkeep(N max min p25) see //仅包含观测值数目、最大值最小值和25分位数 outreg2 using myfile2.doc, word sum(detail) replace see //包含所有统计指标

（3）tabstat计算

tabstat [varlist] [if] [in] [weight] [,options]

[,options]: by(name) 分别计算各变量的描述性统计量

format() 设定显示格式

nototal() 与by()一起使用，要求不显示所有样本统计量

col(stat) 将结果报表转置 long 与by一起使用，要求显示相应的变量名

tabstat wage lwage, stat(count mean p50 sd skew kurt) tabstat wage lwage, stat(count mean p50 sd skew kurt) col(stat) tabstat wage lwage, by(female) stat(count mean p50 sd skew kurt) col(stat) long bysort female: tabstat wage lwage, stat(count mean p50 sd skew kurt) col(stat) long

（4）table命令生成列联表

table rowvar [colvar [supercolvar]] [if] [in] [weight] [,options]

rowvar 行变量 colvar 列变量 supercolvar 高阶列变量

[,options]:

contents(clist) 规定单元格中显示的统计量，最多选5个，默认是contents(freq)频数

by(superrowvar) 规定用于分类的变量

center 居中对齐

left 默认右对齐

row 显示行加总

col 显示列加总

scol 增加附加的行加总

format() 规定单元格中现实的数值

table rep78, contents(n mpg mean mpg sd mpg median mpg) table foreign rep78, c(mean mpg) format(%9.2f) center table foreign rep78, c(mean mpg) format(%9.2f) center row col *创建三维列表 table workplace smokes race [fw=pop], c(mean prob) format(%9.2f) sc ///[fw=pop]每个观测值代表的个体个数 sc要求增加一个加总列 *创建四维列表 table workplace smokes race [fw=pop], by(sex) c(mean prob) format(%9.2f) //*tabstat生成包含描述性统计量的列表*// tabstat price weight mpg rep78 //计算上述变量的均值 tabstat price weight mpg rep78, by(foreign) stat(mean sd min max) //对上述四个变量按照分类报告平均数、标准差、最小值、最大值 tabstat price weight mpg rep78, by(foreign) stat(mean sd min max) nototal long format //long表明各种统计量的名称 nototal选择将total一行去掉

（5） tabulate进行列联表分析

一维命令：tabulate varname [if] [in] [weight] [,tabulatel_options]

[,tabulatel_options]:

nofreq不显示频数

nolabel 显示赋值而不是标签

sort 按照频数下降的顺序显示表格

tab1 varlist1 varlist2 varlist3[if] [in]

[weight] [,tab1_options] ///相当多次执行tabulate

tabulate rep78, sort //创建一维频数表 tab1 rep78 foreign, sort //生成两次频数表 tabulate foreign, nolabel //显示0和1，而不是其标签值

二维命令：tabulate varname1 varname2 [if] [in] [weight] [,options]

sort prob //按照prob的数值升值排序各观测值 gen probcat=group(5) //数据平分成五组，连续型变量prob转化成具有从1到5的定序变量probcat tabulate probcat smokes [fw=pop], chi2 //每个观测值都代表了若干个体的信息，chi2表示使用普通的卡方检验对得肺炎的概率和是否吸烟做独立性检验 tabulate probcat smokes [fw=pop], all //输出所有的统计量和关联系数 tabulate probcat workplace [fw=pop], chi2

【本文地址】

公司简介

联系我们